Mamba (apprentissage profond)

Schéma de description de Mamba dans l'article original

Mamba est une architecture d'apprentissage profond introduite en décembre 2023 par deux chercheurs de Carnegie Mellon et de Princeton, Albert Gu et Tri Dao[1]

Mamba s'est rapidement imposé en 2024 comme la principale alternative à l'architecture Transformeur pour le traitement automatique des langues (TAL) et pour les grands modèles de langage comme GPT-3 ou Llama.

  1. (en) Albert Gu et Tri Dao, « Mamba: Linear-Time Sequence Modeling with Selective State Spaces », arXiv:2312.00752 [cs],‎ (lire en ligne).

Developed by StudentB